iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 19
1
AI & Data

人工智慧 vs.工人智慧系列 第 19

Day 19:文字 vs. 數字

  • 分享至 

  • xImage
  •  

前一天提到了斷詞,這樣等於是把一篇文章分解開來。那現在有了個別的字詞之後,就可以把字詞轉換為電腦可以讀入的數值。

之前一篇有提到,可以利用 fasttext 進行文字轉數值向量,這邊我們同樣使用 FastText_Sample 這個範例檔。

https://github.com/deternan/PTT_Stock/blob/master/src/main/java/ptt/arff/FastText_Sample.java

範例檔內包含了中文段詞的方法,先初始化 CoreNLP 的 function,之後再把要執行段詞的文章部分輸入進去,之後我們用一個向量 segTerms 把每個字詞儲存起來。

Chinese_Seg_Initialize();
Chinese_Segmentation("輸入字串");

然後我們把每個字詞丟入 fasttext 去計算向量值,在 fasttext() 這個方法裡執行一個 for 迴圈,依序把 segTerms 內的字詞放入 fastText_zh.getWordVector 內,然後用 vecTmpzh 接回向量值。

for(int i=0; i<segTerms.size(); i++)  
{   
    com.mayabot.blas.Vector vecTmpzh =         
    fastText_zh.getWordVector(segTerms.get(i).toString());    
}

輸出的結果如下:

https://ithelp.ithome.com.tw/upload/images/20190920/20119726NWYw5ZyMvZ.png
字詞, 向量值

在範例檔的 fasttext() 方法內,我們多加了一個儲存平均值的陣列 averageValueTmp,這是為了當做整篇文章計算後得到文章的平均值。我們以兩篇真實的 PTT 文章舉例來說,第一篇文章如下 (文章ID:M.1526043311.A.17C)

這檔今天有趣了,成交量4900多張,外資買超3050張,盤中一直有壓盤,但買盤似乎小贏 ,下禮拜5/15財報公布後,多空方向應該會明朗。 籌碼面,外資連續買超31天,一共76000張。 技術面,高檔震盪,加上買盤比較強,應該是要拉根長紅表態。 實際面,向右。 下禮拜繼續看怎麼演

第二篇文章 (文章ID:M.1526805650.A.ECD)

由公司年報中提供的數據可以知道公司的散熱模組出貨量持續在提升,至於毛利的問題 稍後在說明。另外超眾去年才在中國重慶擴建新廠,散熱模組的月產能至少可以提高 100萬組,且產量每年都是有在增加的。 公司的散熱模組中的原料熱導管100%為自製,因此在這一方面不會受到供應商的售價 所影響;且微型熱導管的技術門檻較高其他業者不易跨入。其他的原料包括風扇、導熱墊 片、銅和鋁塊則需要外購,其中影響成本最大的就是銅和鋁的價格,由因此公司的毛利和 獲利和這兩者的價格有很大的關係,2017年獲利和毛利大副下降有很大一部分就是因為近 一兩年銅和鋁價上揚導致成本增加,但不同於石油的是金屬可以用完再回收,因此原料的 供應比較不成問題。 這些可能會遇到而影響公司獲利的因素在過去不斷的出現,但公司的營收和獲利還是 繼續成長,除了上面我所提到的散熱的應用會越來越廣泛之外,公司其實也一直在做研發 和創新;最新年報讓我驚豔的是,公司以往不會申請專利,但最新研發的成果卻已經申請 了專利。散熱元件其實生活中很常見,你如果用的是筆電、只要拆開來裡面一定有熱導管 ,只是不一定是超眾做的就是了;且可以發現若是沒有散熱元件,很多電子產品其實都無 法運作。從年報中超眾也說明了他們的在電腦市占率有14%,但方面不是重點,而是未來 的其他應用。 公司散熱產業的特性是接單後生產,因此庫存的管理很重要,由公司的財報中可以看 到存貨佔總資產的比例不高,這也說了散熱產業一定程度的客製化特性。 公司未來發展的策略將致力於產品性能更薄、更小、散熱功率更高的方向前進,且在 目前的產業趨勢上。發展的不利因素包括產業競爭、原物料成本、人力成本、匯率變動等 等,但這些因素過去公司都經歷過:公司成立40年沒有虧損過就說明了公司的競爭力。 說一下財報數字方面的基本面:最重要的毛利和獲利受原物料、匯率和產品價格影響,產 品價格在未來需求還是會成長之下應該會回升,短期內要看的就是原物料價格和匯率,但 長期來看產業還是在成長的。股利政策方面公司章程有提到每年的股利最少都有盈餘的 5成,現金股利政策穩定。現金流量方面就算是去年衰退及今年第一季獲利不好,但自由 現金流量都還是維持正值。另外我買股票比較沒在看技術和籌碼的,所以在此就不分析 4. 進退場機制:(非長期投資者,必須有停損機制) 長期投資,基本上持有3~5以上,除非公司基本面出問題才會賣出。

這兩篇經由斷詞後得到的字詞與向量值如下,但因為字詞太多,這邊先以部分截圖顯示

https://ithelp.ithome.com.tw/upload/images/20190920/201197269pzCE3kflp.png
M.1526043311.A.17C (部分)向量值

https://ithelp.ithome.com.tw/upload/images/20190920/20119726KGsKir8VTV.png
M.1526805650.A.ECD (部分)向量值

所有的字詞向量值完成後,因為每個字詞都是一個 300 維的向量,接著只要把一篇文章內全部切割出的字詞各自的向量累加起來然後做平均,這樣就可以視為一篇文章的向量了。用了圖示表示一下:

https://ithelp.ithome.com.tw/upload/images/20190920/20119726PyeWqeA8qn.png
向量平均值,構成該篇文章向量

加總第一個維度後,再除以該篇文章的(切割出來的)總字數就可以得到該篇文章的向量值,之後就可以用每篇文章各自的向量值來代表該篇文章做後續的運算了。


免責聲明:本文章提到的股市指數與說明皆為他人撰寫文章內容,包括:選股條件,買入條件,賣出條件和風險控制參數,只適用於文章內的解釋與說明,此提示及建議內容僅供參考之用,並不構成投資研究、認購、招攬或邀約任何人士投資任何投資產品或交易策略,亦不應視為投資建議。


上一篇
Day 18:要餵對食物
下一篇
Day 20:分類器 與 分類氣
系列文
人工智慧 vs.工人智慧30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言